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摘要 :【 目的 ] 利用 LSTM 模型 和 字 谍 入 的 方法 构建 分 类 系统 ， 提 出 一 种 中 文 岁 书 分 类 中 多 标签 分 类 的 解决 方 
案 。[ 方法 】 引 入 深度 学 习 算 法 , 利用 字 般 入 方法 和 LSTM 模型 构建 分 类 系统 , 对 题名 、 主 题词 等 字段 组 成 的 字 
符 串 进行 学 习 以 训练 模型 ， 并 采用 构建 多 个 二 元 分 类 器 的 方法 解决 多 标签 分 类 问题 ,选择 3 所 高 校 5 个 类 别 的 书 
目 数据 进行 实验 。[ 结果 】 从 整体 准确 率 、 各 类 别 精度 、 召 回 率 、F1 值 多 个 指标 进行 分 析 , 本文 提出 的 模型 均 有 
良好 表现 ， 有 较 强 的 实际 应 用 价值 。【 局 限 】 数据 仅 涉 及 中 图 分 类 法 5 个 类 别 , 考虑 的 分 类 粒度 较 粗 等 。[ 结论 ] 
基于 LSTM 模型 的 中 文 图 书 分 类 系统 具有 预 处 理 简 单 、 增 量 学 习 、 可 迁移 性 高 等 优点 , 具备 可 行 性 和 实用 性 。 


关键 词 : LSTM RAN REZI FARA 


分 类 号 : TP391 


图 书 自动 分 类 ”多 标签 分 类 


pk 
uu 
m} 


此 外 ， 随 着 跨 学 科 合作 研究 的 不 断 增多 和 深入 ， 
越 来 越 多 的 跨 领 域 成 果 涌 现 。 与 此 相应 ， 越 来 越 多 的 


近年 来 , 信息 技术 飞速 发 展 ， 人 类 已 经 进入 了 大 
数据 时 代 。 而 这 一 变化 也 蔓延 到 图 书 情报 领域 ,其 典 
型 现象 之 一 就 是 数字 图 书馆 的 发 展 。 数 字 图 书馆 利用 
现代 化 的 数字 信息 技术 ,特别 是 互联 网 技术 , 延伸 传统 
图 书馆 的 职能 ， 从 而 更 好 地 组 织 和 传递 文献 信息 。 简 
而 言 之 , 数字 图 书馆 以 现实 资源 的 共享 为 目标 ,数字 
图 书馆 的 建设 是 当前 图 书馆 建设 的 主要 发 展 方向 ,对 
人 们 的 学 习 和 生活 有 重要 的 现实 意义 。 

实现 图 书 自动 分 类 是 数字 图 书馆 建设 的 重要 一 
环 。 当前 , 图 书 数量 激增 , 图书 涉及 到 的 领域 知识 越 来 
越 宽 泛 ,人工 完 成 图 书 分 类 显得 力不从心 。 因 此 , 将 计 
算 机 自动 化 技术 引入 到 图 书 分 类 领域 , 实现 图 书 自动 
分 类 , 已 成 为 图 书 情报 领域 的 研究 热点 , 能 在 很 大 程 
度 上 克服 人 力 不 足 、 相 关 人 员 专 业 知识 薄弱 等 问题 ， 
从 而 更 高 效 准 确 地 管理 图 书 。 


图 书 也 不 再 局 限于 单个 领域 ， 而 是 适用 于 分 类 法 中 的 
多 个 标签 。 若 图 书 分 类 仍 局 限于 单 标签 分 类 ,将 导致 
图 书 被 检索 到 的 概率 降低 , 不 利于 图 书 的 传播 与 共 
享 。 因 此 , 图 书 自动 分 类 技术 应 充分 考虑 到 多 标签 分 
类 的 情况 , 更 好 地 组 织 图 书 分 类 信息 。 


2 相关 工作 


文本 分 类 的 研究 起 源 于 20 世纪 50 年 代 末 ,Luhn 
提出 了 词 频 的 概念 趾 , 被 视 为 是 文本 分 类 领域 开创 性 
的 研究 。 总 体 而 言 ， 国外 文本 分 类 的 研究 可 以 概括 为 
以 下 4 个 发 展 阶段 中 第 一 阶段 (1958 年 -1964 4E), W 
究 文 本 分 类 的 可 行 性 ; 第 二 阶段 (1965 年 -1974 4E), 对 
文本 分 类 进行 试验 性 研究 ; 第 三 阶段 (1975 年 -1989 
年 ), 对 文本 分 类 进行 实用 性 研究 ; 第 四 阶段 (1990 年 
至 今 ), 面向 互联 网 的 文本 分 类 研究 。 


通讯 作者 : RT, ORCID: 0000-0003-1470-7720, E-mail: mg1414011@smail.nju.edu.cn。 
* 本 文系 国家 自然 科学 基金 项 目 “ 面 向 学 术 资 源 的 TSD 与 TDC 测度 及 分 析 研 究 ”( 项 目 编号 : 71503121) 和 中 央 高 校 基 本 科研 业务 费 
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重点 项 目 “ 我 国 图 书 情报 学 科 知识 结构 及 演化 动态 研究 (项目 编 号 : 20620140645) 的 研究 成 果 之 一 。 


在 第 四 阶段 之 前 , 文本 分 类 主要 采用 基于 知识 工 
程 的 方法 ， 即 由 领域 专家 根据 经 验 归 纳 出 一 系列 的 逻 
辑 规则 ,以 此 作为 计算 机 对 文本 进行 分 类 时 的 依据 。 
然而 , 这 种 方法 的 缺点 很 明显 : 分 类 的 质量 依赖 于 领 
域 专家 的 水 平 ， 人力 成 本 极 高 ; 规则 不 具备 扩展 能 
不 同 领域 的 规则 需要 不 同 领域 的 专家 ,， 且 随 着 各 领域 
的 不 断 发 展 , 规则 需要 实时 更 新 .20 世纪 90 年 代 以 来 ， 
一 方面 ， 随 着 信息 时 代 的 到 来 ,依赖 于 人 力 的 、 基 于 知 
识 工程 的 分 类 方法 难以 满足 海量 的 、 多 样 的 文本 信息 ; 
另 一 方面 人 工 智 能 技术 快速 发 展 ， 众 多 的 学 者 将 机 
需 学 习 技术 迁移 到 文本 分 类 领域 , 文本 分 类 开始 向 基 
于 机 天 学 习 的 分 类 系统 转移 。 这 类 方法 通过 选择 某 些 
特征 对 文本 进行 形式 化 表示 , 设计 并 训练 分 类 器 对 其 
进行 分 类 ,大 大 降低 了 人 力 成 本 , 且 具 有 更 高 的 准确 
度 和 稳定 性 , 因此 逐渐 成 为 文本 分 类 领域 的 主流 方 
法 。 目 前 ,已 有 许多 机 器 学 习 算 法 被 应 用 到 文本 分 类 
领域 ， 如 朴素 贝 叶 斯 分 类 法 户 、lkc 最 近邻 分 类 法 品 、 支 
持 向 量 机 分 类 法 国 、 神 经 网 络 分 类 法 六 等 。 
目前 , 文本 分 类 技术 取得 了 大 量 研 究 成 果 ， 也 得 


习 。 这 类 方法 综合 考虑 了 同类 别 文本 间 的 关系 和 不 同 
类 别 文本 间 的 关系 。 如 Liu 等 通过 求解 带 约束 的 非 负 
和 矩阵 获得 最 优 的 样本 标签 "0)。 这 类 方法 能 有 效 地 利用 
类 别 间 的 关系 , 但 是 学 习 过 程 较为 复杂 。 总 体 而 言 ， 多 
标签 分 类 问题 比 单 标签 分 类 问题 更 为 复杂 。 

图 书 分 类 是 文本 分 类 的 子 领域 , 其 理论 基础 与 技 
术 方 法 和 文本 分 类 相 类 似 。 然 而 , 专门 针对 图 书 分 类 
问题 的 研究 相对 较 少 , 针对 中 文 图 书 分 类 问题 的 研究 
则 更 少 ， 且 大 多 数 处 于 试验 阶段 ,尚未 投入 到 实际 应 
用 之 中 。 本 文 尝试 将 近年 来 发 展 迅 速 的 深度 学 习 算法 
引入 中 文 图 书 自动 分 类 领域 , 基于 LSTM TUSURISE RE 
入 的 方法 构建 分 类 系统 ,克服 了 手工 分 类 中 人 力 要 求 
高 、 效 率 低 、 主 观 性 强 等 问题 , 以 及 传统 自动 分 类 中 
预 处 理 复 杂 、 维 护 困 难 、 可 迁移 性 低 等 问题 。 


3 LSTM 模型 介绍 


长 短 时 间 记 忆 神 经 网 络 (Long Short Term Memory 
Neural Network, LSTM) 最 早 是 由 Hochreiter 5545 rj U?], 


到 一 定 的 应 用 。 人 然而, 其 仍然 面临 着 数据 偏 斜 、 非 线 
性 、 多 标签 、 标 注 瓶 颈 等 问题 申 。 其 中 多 标签 分 类 , 指 
的 是 一 个 文本 与 不 止 一 个 类 别 相关 联 。 在 实际 任务 中 ， 
常常 会 出 现 多 标签 分 类 的 情况 。 一 般 而 言 ， 对 多 标签 
分 类 问题 的 研究 主要 从 以 下 三 个 角度 出 发 中 。 

(1) 假设 类 别 相 互 独立 , 在 此 前 提 下 , 最 简单 、 最 
稼 用 的 方法 为 将 多 标签 分 类 问题 转换 为 多 个 二 元 分 类 
问题 , 综合 各 二 元 分 类 的 结果 作为 最 终 分 类 结果 。 如 
Joachims 利用 支持 向 量 机 算法 实现 了 这 种 分 类 方法 [1。 
此 外 , 还 有 基于 排序 的 方法 , 在 训练 时 学 习 得 到 一 个 
排序 函数 ， 据 此 对 文本 和 类 别 的 匹配 情况 进行 打分 ， 
将 文本 划分 到 分 值 高 的 类 别 。 如 Crammer 等 通过 计算 
出 每 个 类 别 的 权重 向 量 ， 进 而 计算 文本 特征 向 量 与 类 
别 权重 向 量 的 内 积 ,排序 决定 所 属 类 别 中 I。 该 类 方法 
大 多 简单 易 行 , 是 有 大 量 高 效 算法 可 以 直接 利用 , 但 
对 于 类 别 间 有 关联 的 情况 难以 获得 很 好 的 性 能 。 

Q) 考虑 类 别 间 的 关联 。 一 般 通 过 构建 主题 模型 
解决 多 标签 分 类 问题 。 如 Ueda 等 提出 一 种 产生 式 体 
系 , 包含 任意 两 个 类 别 间 的 关系 5; Zhang 等 提出 双 层 
主题 分 类 模型 基于 实例 间 的 差异 构建 模型 [1。 

(3) 利用 半 监 督学 习 算 法 对 未 标记 文本 进行 学 


是 一 种 基于 时 间 序 列 的 链 式 结构 。Gers 等 在 原始 模型 
的 基础 上 加 入 了 遗忘 门 59, 这 是 LSTM 模型 的 一 个 重 
要 改进 。 近 年 来 ,Graves 对 LSTM 模型 进一步 的 改良 
和 推广 5 7， 从 而 使 其 进入 鞍 勃 发 展 时 期 。 本 文 使 用 的 
LSTM 模型 为 当前 业界 公认 的 基本 LSTM TERIUS 

LSTM 模型 是 循环 神经 网 络 (Recurrent Neural 
Network，RNN) 的 一 种 ,针对 RNN 模型 存在 的 梯度 消 
失 问 题 9 光 而 提出 改进 ， 用 一 个 记忆 单元 将 换 原来 
RNN 模型 中 的 隐 层 节点 。 这 个 记忆 单元 的 结构 如 图 1 
所 示 0 ”由 记忆 细胞 、 遗 忘 门 、 输 入 门 、 输 出 门 组 
成 。 记 忆 细 胞 负责 存储 历史 信息 , 通过 一 个 状态 参数 
来 记录 和 更 新 历史 信息 ; 三 个 门 结构 则 通过 Sigmoid 
函数 决定 信息 的 取舍 ， 从 而 作用 于 记忆 细胞 。 

具体 而 言 , LSTM 模型 主要 涉及 到 以 下 计算 过 程 ， 
如 公式 (1)- 公 式 (6) 所 示 。 


f=oW,:[h ,Xl+by) (1) 
i, =o (W; -[h. ,, x] - 5) Q) 
o, - 6(W, -[h, ,, x, ] t 5;) (3) 
Č, = tanh(W -[h,1,x,]+ bc) (4) 
C =f, xC +i, xC, (5) 
h, = O, x tanh(C,) (6) 
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图 1 LSTM 模型 的 记忆 单元 的 基本 结构 示意 图 


公式 (1)- 公 式 (3) 分 别 是 遗忘 门 、 输 入 门 、 输 出 门 
的 计算 公式 。 在 t 时 刻 ,， 门 结构 接受 上 一 时 刻 记忆 单元 
H5; Hh, , 和 当前 时 刻 记忆 单元 的 输入 x, 与 各 自 的 
权重 矩阵 相 乘 ， 然 后 加 上 偏 置 向 量 , 通过 Sigmoid PA 
数 产 生 一 个 0 到 1 之 间 的 值 ， 对 信息 进行 筛选 。 公 式 
(4)- 公 式 (5) 是 对 Cell 状态 进行 更 新 。 公 式 (4) 通 过 tanh 

函数 对 上 一 时 刻 记忆 单元 的 输出 疡 ， 和 当前 时 刻 记忆 
单元 的 输入 x, 进行 计算 , 得 出 一 个 候选 值 ， 并 由 输入 
门 决定 将 候选 值 的 哪些 信息 更 新 到 Cell 状态 中 。 同时， 
由 遗忘 门 决定 上 一 时 刻 Cell 状态 信息 的 保留 情况 , 与 
更 新 的 信息 相 加 ,得 到 当前 时 刻 的 Cell 状态 。 公 式 (6) 
计算 记忆 单元 最 终 的 输出 。 通 过 tanh 函数 对 当前 时 刻 
的 Cell 状态 进行 计算 , 使 模型 变 为 非 线 性 的 , 并 由 输 
出 门 决 定 哪些 信息 将 被 最 终 输 出 。 

可 以 看 出 , LSTM 模型 采用 累加 的 线性 形式 处 理 序 
列 数据 的 信息 ， 从 而 避免 了 梯度 消失 问题 , 也 能 学 到 长 
周期 的 信息 请， 克服 了 RNN 模型 的 缺点 。 因 此 , LSTM 
模型 是 处 理 时 间 序 列 数据 常用 的 深度 学 习 模型 。 


4 基于 LSTM 模型 的 中 文 图 书 分 类 系统 设计 


本 文 以 LSTM 模型 为 基础 对 中 文 图 书 分 类 系统 进 
行 设 计 ,， 系 统 的 整体 架构 如 图 2 所 示 。 系 统 共 分 为 5 
个 部 分 : 输入 层 、Embedding JZ, LSTM 隐 层 、Softmax 
层 、 输 出 层 。 
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图 2 本 文系 统 的 整体 架构 示意 图 


整体 架构 中 的 第 三 部 分 即 为 本 文 重点 采用 的 
LSTM 模型 。 在 该 部 分 , LSTM 隐 层 对 之 前 部 分 处 理 得 
到 的 序列 数据 进行 学 习 , 利用 LSTM 模型 的 特性 结合 
上 下 文 信息 , 学 习 到 的 结果 将 传递 给 之 后 的 部 分 ， 以 
进行 分 类 预测 。 

除 LSTM 隐 层 外 , 第 二 部 分 Embedding 层 也 是 系 
统 的 重要 组 成 部 分 。 输入 层 将 待 分 类 文本 统一 为 同等 
KE, 并 传递 给 Embedding 层 ; Embedding ARH FH 
入 的 方法 , 将 传递 来 的 文本 中 的 每 个 字符 转换 为 一 个 
向 量 ， 从 而 将 待 分 类 文本 转换 为 二 维 向 量 , 传递 给 后 
续 部 分 继续 处 理 。 字 和 骨 人 方法 是 在 词 能 人 方法 的 基础 
上 提出 的 , 而 词 舰 入 方法 则 起 源 于 Hinton 提出 的 分 布 
式 表征 的 思想 请 。 词 嵌入 将 词 表示 为 一 个 低 维 稠密 向 
量 ， 从 而 解决 了 维度 灾难 问题 ; 并 且 可 以 通过 余弦 距 
离 、 欧 式 距 离 等 方法 计算 词 之 间 的 相似 度 ， 从 而 克服 
了 One-hot 表示 法 这 一 类 词 表 示 方 法 无 法 反映 词 之 间 
关系 的 问题 。 然 而 ,完美 的 分 词 算法 是 不 存在 的 中 ) 
故 字 般 入 的 方法 被 提出 。 字 般 入 将 字符 转换 为 低 维 币 
WE, 继承 了 词 般 入 的 优点 , 同时 避免 了 分 词 可 能 
出 现 的 问题 。 本 文系 统 采用 字 般 入 的 方法 , 使 得 整个 
系统 是 基于 字符 的 ， 而 不 是 基于 特征 词 的 , 从 而 降低 

了 系统 的 维护 难度 , 不 需要 维护 特征 集合 , 也 不 需要 
在 新 特征 加 入 后 重新 训练 模型 ， 而 是 可 以 采用 增 量 学 
习 的 方法 ; 此 外 , 系统 也 可 以 方便 地 迁移 到 其 他 语言 ， 
提高 了 系统 的 应 用 价值 。 

Softmax 层 用 到 了 Softmax 回归 模型 ， 对 LSTM 隐 
层 传递 来 的 信息 进行 学 习 , 计算 出 待 分 类 数据 归属 各 
类 别 的 概率 , 传递 给 输出 层 , 最 终 给 出 待 分 类 文本 的 
预测 类 别 。 Softmax 回归 模型 是 Logistic 回归 模型 的 一 
般 化 形式 , 是 常用 的 多 分 类 算法 。Softmax 回归 模型 拥 


有 很 好 的 数学 性 质 叶 ; 并 且 ， 其 不 仅 能 预测 出 对 应 的 
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中 所 有 单 标签 条 目 进 行 分 类 实验 。 对 数据 进行 合并 、 
去 重 、 去 除 多 标签 条 目 等 操作 ， 最 终 获得 如 表 2 所 示 


类 别 , 还 能 计算 出 归属 各 类 别 的 概率 , 方便 更 进一步 
的 处 理 。 该 层 也 是 损失 函数 的 构建 依据 ， 系统 整体 采 
用 Adam 算法 中 进行 优化 。 


5 实验 与 分 析 


实验 数据 为 南京 大 学 、 同 济 大 学 、 中 国 科学 技术 
大 学 这 三 所 高 校 的 图 书馆 馆藏 书目 。 这 三 所 高 校 的 图 
书馆 书目 检索 系统 均 由 江苏 汇 文 软 件 有 限 公 司 中 构 
E, 具有 基本 一 致 的 体系 和 格式 , 便于 数据 的 获取 和 
整理 。 使 用 Python 语言 上 编写 网 络 聆 虫 分 别 从 三 所 
高 校 的 图 书馆 书目 检索 系统 爬 取 书 目 信息 , 并 根据 每 
条 书目 的 机 读 格式 (Machine Readable Catalog, MARC) 
获取 特定 字段 的 信息 。 主 要 抓 取 的 字段 及 其 含义 如 表 
1 所 示 。 


表 1 MARC 格式 特定 字段 及 含义 


的 数据 分 布 。 根 据 类 型 抽样 法 将 数据 按 80%、10%、 
10% 的 比例 划分 为 训练 集 、 验证 集 、 测试 集 ， 本 节 实 验 
即 在 此 数据 集 上 进行 。 

R2 单 标签 图 书 分 类 实验 的 数据 分 布 


类 标号 书目 数 


A 8 486 
C 28 514 
F 146 228 
N 6 935 
X 16 463 
总 计 206 626 


考虑 到 不 同 的 字段 对 书目 内 容 的 表达 能 力 和 涵盖 
情况 不 同 , 将 探讨 只 选择 题名 字段 、 选 择 题名 和 主题 
词 字 段 、 选 择 题名 和 摘要 字段 、 选 择 题 名 和 主题 词 以 
及 摘要 字段 这 4 种 情况 下 的 模型 分 类 效果 。 选 择 基本 


MARC 字段 含义 
001 MARC 标识 号 
200 题名 
330 摘要 
606 主题 词 
690 中 图 分 类 号 


针对 《中 国 图 书馆 分 类 法 》 中 的 第 一 层 分 类 进行 
实验 。 考 虑 到 书目 数量 、 实 验 规模 等 因素 , 没有 将 全 
部 22 个 大 类 都 纳入 到 实验 中 ,而 是 选择 A( 马 克 思 列 
宁 主 义 、 毛 泽 东 思想 、 邓 小 平 理论 )、C( 社 会 科学 总 论 )、 
F( 经 济 )、N( 自 然 科 学 总 论 )、X( 环 境 科学 、 安 全 科学 ) 
这 5 个 大 类 的 书目 为 实验 数据 , 涵盖 了 社会 科学 、 自 
然 科 学 等 多 个 方面 , 具有 一 定 的 代表 性 。 

本 文 从 单 标签 分 类 、 多 标签 分 类 两 个 角度 进行 实 
验 。 单 标签 分 类 指 每 个 样本 只 属于 一 个 特定 的 类 别 ; 
而 多 标签 分 类 指 每 个 样本 更 倾向 于 属于 多 个 类 别 户 。 
利用 单 标签 分 类 实验 验证 系统 的 可 行 性 ， 再 探索 系统 
在 多 标签 分 类 上 的 实用 性 。 

实验 环境 为 : CPU Intel Core i7-6700HQ, 四 核 ; 内 
存 16GB; GPU NVIDIA GeForce GTX950M; 显存 
4GB; 操作 系统 为 64 位 Ubuntu 16.04 LTS, 

5.1 单 标 签 图 书 分 类 实验 
对 单 标签 图 书 分 类 进行 实验 探索 , 即 针对 数据 集 


单 向 LSTM 模型 ; 1 层 LSTM 隐 层 , 每 层 隐 层 包含 128 
个 节点 ; 每 批 处 理 的 数据 量 为 128; 训练 过 程 采 用 早 
停 原则 ， 当 模型 在 验证 集 上 的 损失 值 增 大 时 则 停止 训 
练 ， 且 对 整个 训练 集 至 多 训练 1 000 轮 , 训练 情况 如 图 
3 所 示 。 


1.00, 


0.95 + 
0.90 - 
0.85 上 
0.80 


Valid Accuracy 


0.75 


0.70 


ii 2 3 7 8 9 10 


p 
一 题名 — 题名 + 主题 词 一 -题名 + 摘要 一 题名 + 主题 词 -摘要 
图 3 基于 不 同 字段 选择 的 模型 在 训练 过 程 中 
在 验证 集 上 的 准确 率 变化 


图 3 反映 了 每 训练 完 一 遍 整 个 训练 集 后 的 模型 在 
验证 集 上 的 准确 率 变化 趋势 。 观 察 只 选择 题名 字段 的 
模型 与 选择 题名 和 主题 词 字段 的 模型 ， 这 两 者 在 验证 
集 上 的 准确 率 在 训练 初期 便 迅 速 趋 于 平稳 。 这 是 由 于 
题名 和 主题 词 字段 的 字符 数 相对 较 少 ,模型 学 习 到 稳 
定 状 态 的 速度 相对 较 快 。 从 收敛 情况 来 看 , 包含 主题 
词 字段 的 两 个 模型 最 终 的 准确 率 更 高 且 相 近 , 可见 主 
题词 字段 对 训练 更 优 的 模型 有 较 大 帮助 。 
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当选 择 题名 和 主题 词 字 段 时 , 浅 层 的 、 单 向 的 、 
基本 LSTM 模型 在 测试 集 上 的 分 类 准确 率 达到 97% 左 
H, 在 具体 类 别 上 的 FI 值 均 高 于 90%， 处 于 较 高 水 
平 。 因 此 ,综合 实验 情况 、 模 型 简单 性 、 字 段 普 遍 性 
等 因素 , 认为 选择 题名 和 主题 词 字 段 即 可 达到 较 好 的 
分 类 效果 , 也 具有 可 行 性 , 后续 的 实验 将 基于 这 两 个 
字段 进行 。 

文献 [29] 同 样 对 A、C、F、N 、X 等 5 大 类 进行 实 


AR 3 可 以 看 到 ,数据 集中 多 标签 的 书目 较 少 ， 
只 占 数据 总 量 的 1.18%。 如 果 将 多 标签 组 合作 为 一 个 
单独 类 别 , 采用 单 标 签 分 类 的 方法 进行 分 析 。 一 方面 ， 
其 对 应 的 书目 数量 太 少 , 难以 学 习 到 有 效 信息 , 或 者 
存在 过 拟 合 风险 ; 另 一 方面 ,只 选择 5 个 大 类 , 若 将 全 
部 类 别 都 纳入 考虑 , 则 组 合 的 数量 将 非常 庞大 , 会 给 
模型 的 训练 带 来 难度 。 因 此 , 将 多 标签 组 合作 为 一 个 
单独 类 别 是 不 具备 可 行 性 的 ,而 因 采 取 多 标签 分 类 的 


验 , 准确 率 为 95.94%， 处 于 当前 研究 中 的 较 高 水 平 。 
本 文 则 取得 96.97% 的 准确 率 , 优 于 前 人 研究 , 证 明 本 
文系 统 确实 具有 可 行 性 和 应 用 价值 。 
5.2 ”多 标签 图 书 分 类 实验 

对 多 标签 图 书 分 类 进行 实验 探索 ， 即 针对 数据 集 
中 所 有 条 目 进 行 分 类 实验 , 包括 单 标签 条 目 和 多 标签 
条 目 。 选 择 题 名 和 主题 词 字段 ， 对 数据 进行 合并 、 去 
重 的 操作 , 最 终 获 得 如 表 3 所 示 的 数据 分 布 。 采 用 类 
型 抽样 法 按 80%、20% 的 比例 将 数据 集 划 分 为 训练 集 
和 测试 集 ， 本 节 实 验 即 在 此 数据 集 上 进行 。 


表 3 多 标签 图 书 分 类 实验 的 数据 分 布 


类 标号 书目 数 类 标号 书目 数 
A 8 101 A.X 5 
C 25 595 C, F 1217 
F 133 401 C, N 69 
N 6 461 C. X 50 
X 15 642 F、N 49 

A. C 38 F, X 684 

A, F ïi N, X 21 

A、N 4 C、F、X 3 

总 计 191 451 
0.6, 
0.5 
04. 


Train Cost 
[-] 
W 


分 析 方 法 。 对 于 《中 国 图 书馆 分 类 法 》 中 同 层 次 的 类 
别 而 言 ， 各 类别 之 间 是 相对 独立 的 ,类 别 间 没有 什么 
关联 。 因 此 , 本 文 将 多 标签 分 类 问题 转换 为 多 个 二 元 
分 类 问题 , 即 针对 每 个 类 别 分 别 构建 一 个 二 元 分 类 器 ， 
用 于 判断 书目 是 否 属 于 该 类 别 。 将 训练 集中 所 有 属于 
该 类 别 的 数据 标记 为 正 类 别 , 包括 多 标签 的 情况 ， 而 
不 属于 该 类 别 的 数据 标记 为 负 类 别 ， 以 此 构建 模型 。 

在 单 标签 图 书 分 类 实验 中 ,所 有 类 的 地 位 是 一 样 
的 ， 即 所 有 类 的 权重 相同 , 在 损失 函数 里 的 系数 相同 。 
而 在 本 节 实 验 中 , 一 方面 , 大 多 数 分 类 器 的 训练 集 存 
在 类 别 不 平衡 的 情况 , 正 类 别 数据 远 远 少 于 负 类 别 ; 
另 一 方面 ,实验 目标 在 于 尽量 预测 出 所 属 的 所 有 类 别 ， 
故 正 类 别 的 重要 程度 高 于 负 类 别 , 即 正 类 别 的 误差 成 
本 应 高 于 负 类 别 。 因 此 , 笔者 对 类 的 权重 进行 调整 ， 正 
类 别 与 负 类 别 的 权重 比 为 15:1, 损失 函数 中 的 对 应 系 
数据 此 进行 调整 。 

笔者 采用 基本 单 向 LSTM 模型 ; 2 层 LSTM KJE, 
每 层 隐 层 包含 128 个 节点 ; 每 批 处 理 的 数据 量 为 128; 
模型 分 别 对 各 自 的 训练 数据 迭代 学 习 30 轮 。 训 练 情况 
如 图 4 和 图 5 所 示 。 
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图 4 各 二 元 分 类 器 在 训练 集 上 的 损失 变化 图 
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图 5 各 二 元 分 类 器 在 训练 集 上 的 准确 率 变 化 图 


可 以 发 现 两 图 反映 出 的 信息 是 相符 的 ， 当 训练 到 
15 轮 左右 时 ,各 二 元 分 类 需 在 训练 集 上 的 损失 和 准确 
率 都 开始 趋 于 平稳 。 结 合 各 二 元 分 类 顺 对 应 的 训练 集 
来 看 , 训练 集 包 含 的 条 目 越 少 ,其 对 应 的 二 元 分 类 器 
越 快 趋向 于 收敛 , 且 停 止 训练 时 的 损失 值 越 低 、 准 确 
率 越 高 .由 此 可 知 ， 当 训练 集 较 大 时 , 应 适当 增加 训练 
的 轮 数 以 提升 分 类 器 的 性 能 。 

训练 结束 后 ,各 二 元 分 类 器 分 别 对 测试 集 进行 分 
类 测试 , 并 统计 各 类 别 的 精度 、 召 回 率 和 了 1 值 。 统计 
过 程 中 , 包含 所 有 属于 某 一 类 别 的 数据 , 包含 单 标签 
和 多 标签 的 情况 , 统计 结果 如 表 4 所 示 。 可 以 看 到 , 15 


表 4 各 类 别 的 二 元 分 类 带 在 测试 集 上 的 测试 情况 表 


类 标号 精度 召回 率 F1 ff 
A 91.2396 94.32% 92.75% 
C 85.47% 93.61% 89.35% 
F 95.85% 98.56% 97.19% 
N 83.43% 90.17% 86.67% 
X 88.88% 96.13% 92.36% 


将 各 二 元 分 类 器 在 测试 集 上 的 指标 数据 与 单 标签 
分 类 实验 进行 对 比 , 对比 结果 如 图 6 所 示 。 由 于 对 类 别 
权重 进行 调整 , 正 类 别 的 权重 高 于 负 类 别 , 故 对 召回 率 
的 提升 有 促进 作用 。 由 图 6 可 以 发 现 , 与 单 标签 分 类 实 
验 相 比 , 召回 率 大 多 保持 稳定 或 有 所 提升 。 但 是 , 由 于 


个 指标 数据 基本 都 在 85% 以 上 ,其 中 三 分 之 二 的 指标 
数据 在 90% 以 上 。 由 此 可 见 , 各 二 元 分 类 器 的 表现 尚 
可 , 有 一 定 的 实际 应 用 价值 。 
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精度 与 召回 率 这 两 个 指标 相对 矛盾 , 故 精度 显著 下 降 。 
从 F1 值 这 一 综合 评价 指标 来 看 , 分 类 表现 在 整体 上 略 
逊 于 单 标 签 分 类 实验 , 但 相差 不 大 , 仍 处 于 较 高 水 平 。 


F N X A C F N X 


召回 率 FIR 


9 单 标签 a 多 标签 


图 6 单 标 签 实验 与 多 标签 实验 在 测试 集 各 类 别 上 的 指标 数据 对 上 比 
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针对 测试 集 的 分 类 结果 , 统计 其 中 多 标签 条 目的 
实际 预测 情况 , 统计 结果 如 表 5 所 示 。 
表 5 测试 集中 多 标签 条 目的 实际 预测 情况 统计 表 


多 标 实际 预测 情况 
签 项 “存在 数 ”包含 至 少 一 包含 全 部 ”恰好 等 于 
个 实际 类 别 ”实际 类 别 ”实际 类 别 
A、C 8 7 
ue m 2s 16 16 
A, N 1 1 i 
A, X 1 n 1 i 
C. F 244 242 140 140 
C.N 14 14 7 
Cs X 10 10 
PUN 10 10 2 
F, X 137 136 100 100 
N, X 5 5 j g 
C.F, X 1 1 1 i 
总 计 454 450 278 276 


可 以 发 现 , 99.12% 的 多 标签 数据 都 至 少 预测 出 其 
中 一 个 实际 类 别 ，61.23% 的 多 标签 数据 预测 出 全 部 实 
际 类 别 , 60.79% 的 多 标签 数据 恰好 预测 出 了 实际 分 类 。 
同时 ,多 标签 项 对 应 的 实际 数据 越 多 ,其 被 系统 学 习 
的 情况 越 好 , 越 有 可 能 被 全 部 预测 出 , 反之 则 会 导致 
偶尔 性 ,由 此 可 知 ， 当 增加 更 多 多 标签 条 目 时 ,系统 能 
获得 更 好 的 表现 。 此 外 ,对 整个 测试 集 的 预测 情况 进 
行 统计 分 析 ， 有 97.62% 的 数据 至 少 被 预测 出 一 个 实际 
分 类 ，97.17% 的 数据 的 预测 分 类 包含 了 全 部 实际 分 类 ， 
而 91.92% 的 数据 被 恰好 完全 预测 正确 。 整 体 而 言 ， 系 
统 在 测试 集 上 表现 较 好 。 

综 上 可 知 ， 对 于 多 标签 分 类 的 中 文 图 书 分 类 任 
务 , 针对 每 个 类 别 构建 一 个 二 元 分 类 器 , 然后 每 个 分 
类 器 采用 浅 层 的 、 单 向 的 、 基 于 题名 与 主题 词 字段 的 、 
基本 LSTM 模型 ， 这 样 的 方法 可 以 取得 较 好 的 分 类 表 
现 , 对 单 标签 和 多 标签 分 类 均 有 一 定 的 实践 意义 。 

6 结 语 


本 文 将 LSTM 模型 引入 到 中 文 图 书 分 类 问题 中 ， 
与 以 往 人 研究 中 的 基于 知识 工程 或 基于 传统 机 器 学 习 的 
中 文 图 书 分 类 方法 相 比 , 本 文系 统 具 有 如 下 优势 。 

(1) 预 处 理工 作 和 后 期 维护 工作 简单 。 本 文采 用 
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FRADE, 整个 系统 是 基于 字符 序列 构建 的 ， 故 不 
需要 分 词 、 特 征 选择 等 过 程 。 当 出 现 新 知识 、 新 研究 
时 ,可 以 实现 增 量 学 习 , 无 需 重新 训练 模型 。 

(2) 充分 利用 LSTM 模型 的 特点 , 递归 神经 网 络 
适合 处 理 序列 数据 。 本 文系 统 是 对 各 字段 直接 连接 而 
成 的 字符 序列 进行 学 习 , 一 方面 , 避免 了 特征 选择 等 
过 程 中 可 能 会 误 删 重要 信息 等 情况 ,对 所 有 信息 都 进 
行 学 习 ; 另 一 方面 , 相 比 于 词 袋 模型 未 考虑 词 序 等 问 
题 , LSTM 模型 在 处 理 序列 数据 时 考虑 了 上 下 文 信息 ， 
能 更 好 地 理解 文本 。 

(3) 实验 证 明 , 无 论 是 单 标签 图 书 分 类 ,还 是 多 
标签 图 书 分 类 , 本 文系 统 均 有 较 好 的 表现 。 无 论 是 整 
体 的 分 类 准确 率 , 还 是 各 类 别 的 分 类 精度 、 召 回 率 、F1 
值 , 都 达到 了 较 高 水 平 , 有 实际 应 用 价值 。 

当然 , 本 文 研究 也 存在 一 些 不 足 和 改进 空间 ， 如 
测试 环节 未 将 全 部 类 别 纳入 系统 、 分 类 粒度 较 粗 等 ， 
这 些 将 是 笔者 进一步 的 研究 方向 ， 以 不 断 完 善 中 文 图 
书 分 类 系统 。 
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Multi-Label Classification of Chinese Books with LSTM Model 


Deng Sanhong Fu Yuyangzi Wang Hao 
(School of Information Management, Nanjing University, Nanjing 210023) 
(Jiangsu Key Laboratory of Data Engineering and Knowledge Service (Nanjing University), Nanjing 210023, China) 


Abstract: [Objective] This paper proposes a new method to automatically cataloguing Chinese books based on LSTM 
model, aiming to solve the issues facing single or multi-label classification. [Methods] First, we introduced deep 
learning algorithms to construct a new classification system with character embedding technique. Then, we trained the 
LSTM model with strings consisting of titles and keywords. Finally, we constructed multiple binary classifiers, which 
were examined with bibliographic data from three universities. [Results] The proposed model performed well and had 
practical value. [Limitations] We only analyzed five categories of Chinese bibliographies, and the granularity of 
classification was coarse. [Conclusions] The proposed Chinese book classification system based on LSTM model could 
preprocess data and learn incrementally, which could be transferred to other fields. 

Keywords: LSTM Model Deep Learning Character Embedding Book Automatic Classification 

Multi-label Classification 


ENS 数据 分 析 与 知识 发 现 


